Loading...
机构名称:
¥ 1.0

能够与人一起观看视频并通过各种对话分享对视频内容的同理心的人工智能代理是人们期待的有前途的人工智能应用。为此,人工智能代理必须准确地感知和识别视频内容,并基于对内容的理解与人进行自然的多轮对话。最近,人们积极开展文本到视频检索、视频字幕和视频问答 (videoQA) 方面的研究,以提高视频理解智能。此外,已经建立了大规模数据集并公开提供以促进研究 (Alamri 等人 2019 年;Lei 等人 2018 年、2020 年;Choi 等人 2021 年)。使用这些数据集的研究通常应用自动评估指标来衡量人工智能代理的性能。对于视频问答任务,多项选择题通常使用总体准确率,而开放式问答则采用自然语言生成任务中经常使用的评估指标(例如 BLEU(Papineni 等人 2002)、METEOR(Banerjee 和 Lavie 2005)、CIDEr(Vedantam、Lawrence Zitnick 和 Parikh 2015))。这些自动评估指标应用起来很方便,但也有局限性。例如,总体准确率虽然直观且易于计算,但并未考虑问题的难度或所需的认知成分。此外,语言生成模型的评估指标分数无法判断内容是否是问题的正确答案。

arXiv:2110.04203v2 [cs.AI] 2021 年 10 月 18 日

arXiv:2110.04203v2 [cs.AI] 2021 年 10 月 18 日PDF文件第1页

arXiv:2110.04203v2 [cs.AI] 2021 年 10 月 18 日PDF文件第2页

arXiv:2110.04203v2 [cs.AI] 2021 年 10 月 18 日PDF文件第3页

arXiv:2110.04203v2 [cs.AI] 2021 年 10 月 18 日PDF文件第4页

arXiv:2110.04203v2 [cs.AI] 2021 年 10 月 18 日PDF文件第5页

相关文件推荐

2021 年
¥17.0
2021 年
¥17.0
2021 年
¥8.0